怎么利用小工具处理GEO数据,做生存分析
大家好,针对目前大家在社区(点击阅读原文直达)上提的问题。小编今日又一次以小白的身份完成了从下载GEO数据到批量运行生存分析。
过程中踩了很多坑,这里先向团队的码农,扔两箱炸弹。
然后小编带着大家走一遍生存分析。
一、数据下载
打开GEO,选择GSE17538 数据,然后下载MINiML。
二、格式转化
然后导入GEO_Convert.exe 工具(不知道的点前面)。
导出样本信息数据和数据矩阵。
三、格式修改(可以防止踩大坑)
利用excel打开样本信息文本。
坑1:建议将将要用到的时间列和状态列名字改短。否则在工具中打不开。overall_event、overall survival follow-up time。
坑2:GEO的数据中一般是利用0代表 生存,1代表死亡。但是有些数据不是这样的,所以这里需要对death和no death 进行替换。否则会报错。
坑3:最大的坑就是某些特殊符号。这个时间列和状态列存在特殊符号比如;、,等。这些都是特殊符号需要替换掉。建议如果没有多次随访信息,直接替换掉全部特殊字符。
最后处理之后的表格:
四、生存分析
打开生信人小工具生存分析(不知道点前面)
导入表达数据和样本信息。
选择数据来源为GEO(默认也是GEO,请忽略截图)
然后选择状态列为stat列(0,1)
时间列选择为os-time(主要选择时间单位年、月、日)
然后点击导出结果。
然后导出表格如下,看到是不是很亲切,是的,这个表格可以放在文章里的。然后细心的童鞋会发现这里已经按照P值进行过排序了(拿走,不写)。
另外软件中可以交互的看每个基因生存分析的关系。
这个图同样可以导出矢量图(图片文章中可用,耶),可以自主调整颜色放在文章里的。
生信人
生信人成立于2014年,由老祝,鑫仔,helen等组建,他们都来自同一个学校:哈尔滨医科大学,更来自同一个寝室,他们是国内最早一批专攻生物信息学专业的学生,他们希望能最大限度降低跨专业的生信学习门槛,开发一系列零编程的可视化软件,助力医学科研。
也许你还想看↓↓
☞
戳
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注